direct preference optimization Tag

DPO(Direct Preference Optimization)：LLM的直接偏好优化

在学习llama模型的训练过程中发现强化学习除了PPO(proximal policy optimization)还有一个DPO可选项(direct preference optimization)，在我的上一篇笔记里有提到两本入门课程（Easy RL和动手学强化学习）里并没有提到这个算法，应该是最近新出现的，查了一下该算法是在23年提出的。在学习DPO之前，我们先回顾一下RLHF。 ...